接下來的30天,我們會一起看MLOps的更多層面。從為什麼產業開始談MLOps開始,以及其包含的技術與非技術面。今天我想談的是關於學習mlops前必備的3個背景知識,讓大家有一個暖身。
根據Gartner在2020年的報告指出[1]:“到2024年底,75% 的企業將會轉型至維運AI,這將會增加帶來5倍以上的串流資料與資料分析的基礎架構建設。” (75% of enterprises will shift to operationalizing AI by the end of 2024, driving a 5X increase in streaming data and analytics infrastructures.)
這樣的數字能夠跟幾個現況相互呼應(1)大量的機器學習模型正從實驗階段往產品化階段邁進(2)隨著電腦硬體與演算法的演進,許多相對複雜的問題,也開始能逐漸能夠被強化學習、分佈式學習等方式逐漸處理(3)隨著高速網路基礎架構(5G)的提升與邊緣設備的開發逐漸完善,機器學習的應用也擴展到更多不同的場景。
這三個現況,也反映出機器學習的專案正在往(1)在產品開發以及交付上更完善(2)挑戰的問題難度提高(3)應用的情境更廣,這些方向邁進。機器學習從過去研究、瞭解問題階段,在未來這幾年會更快速的走到產品階段,更廣泛的被大眾化使用。
當一項研究走到產品階段,更廣泛的被大眾化使用,企業開始把機器學習產品納入決策的一環,同時開發者也開始往這個方向學習、因應市場的潮流,
簡言之,就是Machine Learning + Devlope Operation,機器學習與系統維運放在一起。
如同上一段所提到,大量的機器學習模型正從實驗階段往產品化階段邁進。那這樣代表的是什麼意思?
機器學習模型在建構的過程當中,參雜了許多實驗性的步驟,為了要驗證腦中所想的跟目前有的研究結果相互佐證,你可能會需要(1)資料(2)演算法(3)計算資源。也因為是實驗,所以在資料上的收集可能並不是十分嚴謹,也許只是網路上找幾個樣本資料。演算法也可能不是自己設計的,而是拿別人的框架、甚至預先訓練好的模型去使用。在計算的資源上,可能也不在乎是不是只能夠跑在自己的電腦上。在一些預先假設的條件下,你的想法與實驗出來的結果相符合,於是老闆很開心的說:“我們來把它產品化吧!”
“可是...。”這時候你的腦中跑過非常多為了實驗而暫且設定、暫且將就的細節。甚至在你的模型開發過程,完全沒有想到未來要把機器學習模型變成一個產品,然後這個產品必須要能夠符合這個市場上的安全性跟合規性要求、以及支撐很多人在使用你的模型服務的狀況。
這時候機器學習模型產品化的過程就包含(1)將程式, 模型, 資料能夠重現過去、現在、未來不同版本的實驗結果。且在資料、程式的使用上要符合開源授權規範。(2)需要與精通部署、系統監測、開發以及產品環境維護、資源和數據管理、安全等方面的開發人員一起合作。
第二部分也就是大家在談的devops。
近年來不管是數位轉型、AI/ML轉型,每間公司都必須學習關於如何將公司的資產與資料放上電腦,以及從當中透過ML找到公司企業決策能依循的pattern。因此,不管是開發人員、專案管理者、企業管理者,都必須至少了解什麼是ML專案,怎麼維運ML專案,可以從專案中取得何者metrics,以及如何評斷該專案的價值何在,未來可以如何優化。
當ML專案的模型透明度提高了,也協助決策負責人在使用AI決策時,有更好的防止錯誤決策機制。整體來說,AI/ML的專案會帶來更高程度的自動化、會帶來更好的人機協作和信任,從而在整個組織中更好地採用和調整決策。
未來30天,讓我們一起學習怎麼把ML專案的為運作得更完整。讓企業在做決策、開始落地的時候,各部門可以有更好的溝通與協作方式。
Reference
[1] Gartner Top 10 Trends in Data and Analytics for 2020
https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/